點擊原文章或更多博客内容:Herramienta de Scraping
要從網站提取數據,可以使用Octoparse之類的數據提取工具。這些工具可以自動提取網站數據並將其保存為多種格式,例如Excel,JSON,CSV,HTML或通過API保存在其自己的數據庫中。只需幾分鐘即可提取數千行數據,最好的是,在此過程中不需要編碼。
目錄
方法1:使用網頁爬蟲模板進行簡單提取
方法2:使用高級模式自定義提取
以Google搜索為例。如果我們對有關“ smoothie”的信息感興趣,並希望從搜索結果中提取所有標題,描述和URL。要從Google搜索中提取數據,您可以使用網絡抓取模板。該模板是一種預格式化的搜尋器,無需任何配置即可使用。有超過50種模板可供選擇。您將看到從電子商務網站(如亞馬遜和eBay)到社交媒體渠道(如Facebook,Twitter和Instagram)的所有模板。Octoparse還提供自定義模板。
方法1:使用Web爬網模板進行簡單提取
一:選擇網絡爬蟲模板
要使用該模板,您需要在計算機上安裝Octoparse。選擇“任務模板”模式。轉到“搜索引擎”類別中的Google搜索網絡抓取模板,請便看視頻便查閲文本教程:
二:閱讀模板說明
打開模板。檢查說明和示例輸出,以確保此模板將為您提供所需的數據。您可以將鼠標懸停在數據字段上,以查看將提取哪些網站元素。
檢查參數以更好地了解您需要輸入什麼。這些參數在不同的模板之間會有所不同,因為它們需要不同的搜索詞才能繼續。它可以是URL,關鍵字,關鍵詞網址列表,要獲取的頁面數等。在這種情況下,我們必須輸入搜索詞“ smoothie”
三:使用模板並開始數據提取
繼續單擊“使用模板”,然後輸入“ smoothie”並單擊“保存並運行”。如果這是一個一次性項目,則只需選擇本地運行。而如果您正在管理一個正在進行的項目,則可以在Octoparse雲端平台上提取數據。提取後,您可以將其導出為多種格式,例如Excel,CSV和txt。
我們剛剛介紹瞭如何使用網絡抓取模板從Google搜索中提取網絡數據。您也可以使用“高級模式”創建自己的搜尋器。您可能需要一些設置,但是在數據提取方面非常靈活。
方法2:使用高級模式自定義提取
一:輸入目標網址以創建抓取規則
如果您嘗試大規模提取數據,則可以在框中輸入最多10,000個URL的列表。在這種情況下,由於我們僅抓取一個網站,因此將目標URL粘貼到框中,然後單擊“保存URL”以繼續。
二:創建一個分頁循環
將瀏覽器更改為Firefox45,將網頁加載到内置瀏覽器中。然後,我們必須通過單擊“下一步”頁面按鈕並在“操作提示”面板中選擇“循環單擊下一頁”來創建分頁。您將在工作流程區域中看到我們剛剛創建的分頁循環。
三:提取數據並開始提取
現在我們可以提取數據。單擊搜索結果的標題,然後單擊“全選”。選擇所有標題後,它們將以綠色突出顯示。單擊“提取所選元素的文本”以提取所有標題。讓我們暫停一下以查看工作流程。如您所見,我們剛剛在分頁週期內構建了一個提取循環。整個提取過程將以這種方式進行:op將首先打開網頁,一步一步提取第一頁上的標題,然後轉到下一頁重複提取,直到提取停止或完成。
除了Google之外,數據提取工具還可以從許多其他網站提取數據,並且已在所有行業中廣泛使用。例如,公司可以從Yellowpages,Yelp和Google提取地圖以產生銷售線索。您可以檢查數據提取的其他用途和應用程序。